智能论文笔记

PointCAT: Contrastive Adversarial Training for Robust Point Cloud Recognition

Qidong Huang , Xiaoyi Dong , Dongdong Chen , Hang Zhou , Weiming Zhang , Kui Zhang , Gang Hua , Nenghai Yu

分类：计算机视觉

2022-09-16

尽管在各种应用中取得了突出的性能，但点云识别模型经常遭受自然腐败和对抗性扰动的困扰。在本文中，我们深入研究了点云识别模型的一般鲁棒性，并提出了点云对比对抗训练（PointCat）。 PointCat的主要直觉是鼓励目标识别模型缩小清洁点云和损坏点云之间的决策差距。具体而言，我们利用有监督的对比损失来促进识别模型提取的超晶体特征的对齐和均匀性，并设计一对带有动态原型指南的集中式损失，以避免这些特征与其属于其属于其归属类别群的偏离。为了提供更具挑战性的损坏点云，我们对噪声生成器以及从头开始的识别模型进行了对手训练，而不是将基于梯度的攻击用作内部循环，例如以前的对手训练方法。全面的实验表明，在包括各种损坏的情况下，所提出的PointCat优于基线方法，并显着提高不同点云识别模型的稳健性，包括各向同性点噪声，LIDAR模拟的噪声，随机点掉落和对抗性扰动。

translated by 谷歌翻译

A Compacted Structure for Cross-domain learning on Monocular Depth and Flow Estimation

Yu Chen , Xu Cao , Xiaoyi Lin , Baoru Huang , Xiao-Yun Zhou , Jian-Qing Zheng , Guang-Zhong Yang

分类：计算机视觉

2022-08-25

准确的运动和深度恢复对于包括自动驾驶在内的许多机器人视觉任务很重要。以前的大多数研究都通过预定义的损失函数或跨域预测实现了合作的多任务相互作用。本文提出了一种多任务方案，该方案通过我们的流动深度（F2D），深度流动（D2F）和指数移动平均值（EMA）来实现相互帮助。 F2D和D2F机制可以基于可区分的浅网，可以在光流和深度域之间进行多尺度信息集成。双头机制用于基于分裂方式的刚性和非刚性运动来预测光流，从而显着改善了光流估计的性能。此外，为了使预测更加稳健和稳定，EMA用于我们的多任务培训。 KITTI数据集的实验结果表明，我们的多任务方案优于其他多任务方案，并为预测结果提供了明显的改进。

translated by 谷歌翻译

DeepHider: A Multi-module and Invisibility Watermarking Scheme for Language Model

Long Dai , Jiarong Mao , Xuefeng Fan , Xiaoyi Zhou

分类：人工智能

2022-08-09

随着自然语言处理（NLP）技术的快速发展，NLP模型在业务中表现出巨大的经济价值。但是，所有者的模型容易受到盗版再分配的威胁，这打破了模型所有者与消费者之间的对称关系。因此，需要一种模型保护机制来防止对称性被打破。当前，基于黑框验证的语言模型保护方案在触发样品的隐形方面的性能较差，这些触发样品很容易被人类或异常检测器检测到，从而防止验证。为了解决此问题，本文提出了无触发模式的触发样本，以进行所有权验证。此外，小偷可能会替换以水印模型来满足其特定分类任务并删除模型中存在的水印的分类模块。因此，本文进一步提出了一个新的威胁，以替换模型分类模块并对模型进行全局微调，并通过白色框方法成功验证模型所有权。同时，我们使用区块链的特性，例如防篡改和可追溯性，以防止盗贼的所有权声明。实验表明，所提出的方案成功地验证了100％水印验证精度的所有权，而不会影响模型的原始性能，并且具有强大的鲁棒性和低的虚假触发率。

translated by 谷歌翻译

Deep Reinforcement Learning-Assisted Federated Learning for Robust Short-term Utility Demand Forecasting in Electricity Wholesale Markets

Chenghao Huang , Weilong Chen , Xiaoyi Wang , Feng Hong , Shunji Yang , Yuxi Chen , Shengrong Bu , Changkun Jiang , Yingjie Zhou , Yanru Zhang

分类：机器学习

2022-06-23

短期负载预测（STLF）在电力交易市场的运营中起着重要作用。考虑到对数据隐私的日益关注，在最近的研究中，越来越多地采用了联合学习（FL）来培训公用事业公司（UCS）的STLF模型。令人鼓舞的是，在批发市场中，由于发电厂（PPS）直接访问UCS数据并不现实，因此FL绝对是可行的解决方案，可以为PPS获得准确的STLF模型。但是，由于FL的分布性质和UC之间的激烈竞争，缺陷越来越多，导致STLF模型的性能差，表明仅采用FL是不够的。在本文中，我们提出了一种DRL辅助方法，缺陷感知的联合软性参与者 - 批评者（DearFSAC），以稳健地训练PPS的准确的STLF模型，以预测精确的短期公用事业需求。首先。我们仅使用历史负载数据和时间数据设计了基于长期短期内存（LSTM）的STLF模型。此外，考虑到缺陷发生的不确定性，采用了深入的增强学习（DRL）算法来通过减轻缺陷引起的模型退化来协助FL。此外，为了更快的FL训练融合，自动编码器设计用于缩小尺寸和上载模型的质量评估。在模拟中，我们在2019年验证了赫尔辛基UCS的真实数据的方法。结果表明，无论是否发生缺陷，DearFSAC都比所有其他方法都胜过所有其他方法。

translated by 谷歌翻译

CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet

Xiaoyi Dong , Jianmin Bao , Ting Zhang , Dongdong Chen , Shuyang Gu , Weiming Zhang , Lu Yuan , Dong Chen , Fang Wen , Nenghai Yu

分类：计算机视觉 | 机器学习

2022-12-12

Recent studies have shown that CLIP has achieved remarkable success in performing zero-shot inference while its fine-tuning performance is not satisfactory. In this paper, we identify that fine-tuning performance is significantly impacted by hyper-parameter choices. We examine various key hyper-parameters and empirically evaluate their impact in fine-tuning CLIP for classification tasks through a comprehensive study. We find that the fine-tuning performance of CLIP is substantially underestimated. Equipped with hyper-parameter refinement, we demonstrate CLIP itself is better or at least competitive in fine-tuning compared with large-scale supervised pre-training approaches or latest works that use CLIP as prediction targets in Masked Image Modeling. Specifically, CLIP ViT-Base/16 and CLIP ViT-Large/14 can achieve 85.7%,88.0% finetuning Top-1 accuracy on the ImageNet-1K dataset . These observations challenge the conventional conclusion that CLIP is not suitable for fine-tuning, and motivate us to rethink recently proposed improvements based on CLIP. We will release our code publicly at \url{https://github.com/LightDXY/FT-CLIP}.

translated by 谷歌翻译

Dominance as an Indicator of Rapport and Learning in Human-Agent Communication

Amanda Buddemeyer , Xiaoyi Tian , Erin Walker

分类：机器人

2022-12-05

Power dynamics in human-human communication can impact rapport-building and learning gains, but little is known about how power impacts human-agent communication. In this paper, we examine dominance behavior in utterances between middle-school students and a teachable robot as they work through math problems, as coded by Rogers and Farace's Relational Communication Control Coding Scheme (RCCCS). We hypothesize that relatively dominant students will show increased learning gains, as will students with greater dominance agreement with the robot. We also hypothesize that gender could be an indicator of difference in dominance behavior. We present a preliminary analysis of dominance characteristics in some of the transactions between robot and student. Ultimately, we hope to determine if manipulating the dominance behavior of a learning robot could support learning.

translated by 谷歌翻译

From One to Many: Dynamic Cross Attention Networks for LiDAR and Camera Fusion

Rui Wan , Shuangjie Xu , Wei Wu , Xiaoyi Zou , Tongyi Cao

分类：计算机视觉

2022-09-25

激光镜头和相机是两个用于自动驾驶中3D感知的互补传感器。激光点云具有准确的空间和几何信息，而RGB图像为上下文推理提供了纹理和颜色数据。为了共同利用激光雷达和相机，现有的融合方法倾向于基于校准，即一对一的映射，将每个3D点与一个投影图像像素对齐。但是，这些方法的性能高度依赖于校准质量，这对传感器的时间和空间同步敏感。因此，我们提出了一个动态的交叉注意（DCA）模块，具有新型的一对一的交叉模式映射，该模块从初始投影对邻域的最初投影中学习了多个偏移，从而发展了对校准误差的耐受性。此外，提出了A \ textIt {动态查询增强}来感知与模型无关的校准，从而进一步增强了DCA对初始未对准的耐受性。名为“动态跨注意网络”（DCAN）的整个融合体系结构利用了多级图像特征，并适应了点云的多个表示，这使DCA可以用作插件融合模块。对Nuscenes和Kitti的广泛实验证明了DCA的有效性。拟议的DCAN在Nuscenes检测挑战上优于最先进的方法。

translated by 谷歌翻译

Kernel-Based Generalized Median Computation for Consensus Learning

Andreas Nienkötter , Xiaoyi Jiang

分类：计算机视觉

2022-09-21

从一组给定对象中计算共识对象是机器学习和模式识别的核心问题。一种流行的方法是使用广义中位数将其作为优化问题。先前的方法（例如原型和距离嵌入方法）将对象转换为矢量空间，解决该空间中的广义中值问题，并反相转换回原始空间。这两种方法已成功地应用于广泛的对象域，其中广义的中值问题具有固有的高计算复杂性（通常为$ \ Mathcal {np} $ - 硬），因此需要近似解决方案。以前，在计算中使用了显式嵌入方法，这通常不反映对象之间的空间关系。在这项工作中，我们介绍了一个基于内核的广义中间框架，该框架适用于积极的确定和无限核。该框架计算对象与其在内核空间中的广义中位数之间的关系，而无需显式嵌入。我们表明，与使用易于计算的内核相比，对象之间的空间关系比在显式矢量空间中更准确地表示，并在三个不同域的数据集上展示了广义中值计算的出色性能。我们的工作产生的软件工具箱可公开使用，以鼓励其他研究人员探索广义的中位数计算和应用。

translated by 谷歌翻译

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining

Xiaoyi Dong , Yinglin Zheng , Jianmin Bao , Ting Zhang , Dongdong Chen , Hao Yang , Ming Zeng , Weiming Zhang , Lu Yuan , Dong Chen

分类：计算机视觉

2022-08-25

本文提出了一个简单而有效的框架蒙版，该框架将新提出的掩盖自distillation纳入对比的语言图像预处理中。掩盖自distillation的核心思想是将表示从完整的图像提取到蒙版图像预测的表示形式。这种合并享有两个重要的好处。首先，掩盖的自我验证目标是本地贴片表示学习，这与视觉对比度的互补，专注于与文本相关的表示。二，掩盖的自我验证也与视觉语言对比符合训练目标的视野对比是一致的。视觉编码器用于功能对齐，因此能够学习本地语义从该语言中获得间接监督。我们提供了专门设计的实验，并进行了全面的分析，以验证这两个好处。从经验上讲，我们表明，当MaskClip应用于各种具有挑战性的下游任务时，可以在线性探测，填充和零拍摄中取得卓越的结果，并在语言编码器的指导下取得了卓越的结果。

translated by 谷歌翻译

HTML版本

Energy-Aware, Collision-Free Information Gathering for Heterogeneous Robot Teams

Xiaoyi Cai , Brent Schlotfeldt , Kasra Khosoussi , Nikolay Atanasov , George J. Pappas , Jonathan P. How

分类：机器人

2022-07-30

本文考虑了安全协调一个配备传感器的机器人团队的问题，以减少有关动态过程的不确定性，而该过程将使目标消除信息增益和能源成本。优化这种权衡是可取的，但是在机器人轨迹集中导致非占主酮目标函数。因此，基于协调下降的普通多机器人计划者失去了其性能保证。此外，处理非单调性的方法在受到机器人间碰撞避免约束时会失去其性能保证。由于需要保留性能保证和安全保证，这项工作提出了一种分布式计划者的层次结构方法，该方法使用本地搜索，并根据控制屏障功能提供了基于控制屏障功能的当地搜索和分散的控制器，以确保安全并鼓励及时到达传感位置。通过大量的模拟，硬件测试和硬件实验，我们证明了所提出的方法比基于坐标下降的算法在感应和能源成本之间取得更好的权衡。

translated by 谷歌翻译